Daten und Definitionen

Wir betrachten im folgenden den User “cavedave”; er wurde zufällig aus dem Long Tail der Nutzerverteilung gezogen.

Als Analysezeitraum wählen wir November 2007 bis Februar 2018. Ab November 2007 reduzieren sich die fehlenden Beiträge in den Baumgartner-Datensätzen (Caveat Emptor, 2018).

Für jeden Monat in diesem Zeitraum identifizieren wir Kommentare, die entweder an den User gerichtet sind, oder von ihm ausgehen, sowie die User, die an diesen Interaktionen beteiligt sind.

Für einen Post des Users stellen wir fest, in welchem Subreddit dieser verfasst wurde. Ein oder mehrere Subreddits fassen wir unter einem Topic zusammen, sodass man sagen kann, dass ein Post zu einem Topic gehört.

Ähnliches lässt sich über die User sagen, mit denen Ego interagiert: sie sind in einem Topic aktiv, wenn sie in dem betrachteten Monat dort die meisten ihrer Kommentare verfasst haben.

Verteilungen

Aus dem Datensatz können wir entnehmen, wie viele (absolute) Posts ein User zu einem Topic erstellt.

## # A tibble: 13 x 6
##    topic median   min   max lower_q upper_q
##    <fct>  <dbl> <dbl> <dbl>   <dbl>   <dbl>
##  1 29         0     0    25       0     0  
##  2 37         0     0    22       0     4  
##  3 58         0     0    11       0     0  
##  4 69         0     0    30       0     0  
##  5 89         0     0     4       0     0  
##  6 122        0     0     9       0     0  
##  7 129        0     0    10       0     0  
##  8 194        0     0     4       0     0  
##  9 195        0     0    10       0     0  
## 10 210        8     0    42       3    13  
## 11 219       12     0    86       5    22  
## 12 235       13     0   119       6    21.2
## 13 239        0     0    15       0     0

Für die meisten Topics ist die Zahl der Kommentare eher gering, der Median liegt um 0. Einzig Topics 210, 219 und 235 zeugen von höherer Aktivität des Users.

Um die Verteilung der Kommentare bzw. User sinnvoller vergleichen zu können, normalisieren wir die absoluten Zahlen indem wir ihren Anteil an der jeweiligen Gesamtzahl berechnen. Die so erhaltenen relativen Verteilungen untersuchen wir im folgenden auf Auffälligkeiten.

In dem mit gepunkteter Linie markierten Zeitraum fällt der Anteil an Topic 235 auf ein Minimum von 0; der User “verlässt” das Topic.

Wenn wir versuchen, die Anziehungskraft oder “Interessantheit” eines Topics messbar zu machen, bieten sich ebenfalls die beiden erhobenen Größen an. Wir können die Verteilungen auch als Wahrscheinlichkeiten auffassen, dass ein Post von Ego einem Topic zugerechnet wird (\(p_{e}\)), bzw. dass einer der Peers sich für dieses Topic interessiert (\(p_{a}\)). Die Wahrscheinlichkeit, dass sich ein User einem Topic zuwendet, also die Anziehungskraft oder Interessantheit des Topics, definieren wir als das Produkt dieser beiden Größen:

\[ Int = p_a p_e \] Wir plotten \(Int\) zuerst für den gesamten, und dann für den gewählten Analysezeitraum.

Korrelation der Verteilungen

Fasst man die relative Häufigkeit der Posts bzw. Alteri als Wahrscheinlichkeiten auf, lässt sich deren Korrelation untersuchen. Intuitiv vermuten wir, dass mit höherer Post-Wahrscheinlichkeit auch die Interaktionswahrscheinlichkeit in einem Topic steigt, bzw. vice versa: wenn mehr Interaktionen mit Alteri aus einem Topic zustande kommen, werden auch mehr Beiträge zu diesem Thema verfasst.


TODO: Korrelations-Matrix


In der Tat bestätigen die meisten Topics unsere Vermutung und folgen einer positiven linearen Korrelation. Bei Topic 219 fällt auf, dass der Zusammhang sublinear zu sein scheint. Beispielsweise entspricht die höchste Post-Wahrscheinlichkeit von ca 90% nur einer Alter-Wahrscheinlichkeit von 25%. Der Großteil der Posts wird also zu diesem Topic verfasst, obwohl nur ein Viertel der Interaktionspartner in diesem Monat auch zu diesem Thema Beiträge verfassen.

Wir wählen daher für die weitere Analyse diesen Zeitraum, um die Dynamik des “Verlassens” zu ergründen.

Verteilung der Posts im Analysezeitraum

Verteilung der Alteri im Analysezeitraum

Die vertikale gepunktete Linie markiert den Zeitpunkt des Austritts im Oktober 2017; die rote gestrichelte Linie stellt die aggregierte Zahl der Posts für einen Monat dar. Auch diese Kurve fällt im Oktober stark ab, der User erstellt kaum Kommentare.

Interaktion von Verteilungen

Um herauszufinden, wie Posting-Verhalten und Zusammensetzung des Egonetzwerks zusammenhängen, visualisieren wir die beiden Verteilungen.

Es scheint eine Tendenz zu einem positiven linearen Zusammenhang dieser beiden Verteilungen zu geben.

Dennoch scheint es Topics zu geben, in denen Ego Kommentare verfasst obwohl vergleichsweise wenig Alteri in diesem Topic posten. Siehe Topic 239: 40-50% Posts bei weniger als 30% Alteri. Aber auch der gegenteilige Fall ist erkennbar: mehr Alteri als Posts, etwa bei Topic 69 oder 235.


TODO: KLÄREN OB MAN DAS WEITER VERFOLGT, GGF BESSER MIT VOLLSTÄNDIGEM ZEITRAUM ??

Dies wirft die Frage auf, auf welchen Zeitraum diese “markanten” Verhältnisse entfallen. Hierzu unterteilen wir den Analysezeitraum nochmals in drei Abschnitte (“früh”, “mittel”, “spät”) und ordnen jeden Datenpunkt einem dieser Abschnitte zu.


Im Juli 2013 sinkt die Wahrscheinlichkeit eines Ego-Posts in Topic 239 auf 0. Im Oktober 2013 verlässt der User Topic 239 gänzlich, \(p_e\) sinkt auf 0. Die Wahrscheinlichkeit steigt danach wieder, bis sie im Januar 2015 den zweithöchsten Wert in diesem Zeitraum erreicht von 0.

Analyse des Netzwerks

Knoten und Kanten im Graphen

Um eine Übersicht über die Struktur des sozialen Netzes des Nutzers zu erhalten, betrachten wir die Entwicklung der Größe dieses Netzes.

Im Oktober 2013 besteht das Ego-Netz des Nutzers aus Knoten, es finden also Interaktionen mit 4 weiteren Nutzern statt; im Graphen gibt es Kanten, also zu jedem Nutzer eine.

Das soziale Netz ist als Multigraph modelliert, ein Post entspricht einer Kante. Die Visualisierung zeigt, dass im Oktober 2013 auch die Anzahl an Posts des Users auf ein Minimum fällt. Um mögliche Ursachen hierfür zu erforschen, betrachten wir die Reziprozität der Interaktionen.

Reziprozität

Wir bestimmen zuerst die Reziprozität im gesamten Graphen.

Es bietet sich ein ähnliches Bild wie zuvor: der Katz-Powell Index schwankt zwischen ca. 0.35 und 0.55, und fällt im Oktober 2013 stark ab; der Index nimmt sogar einen negativen Wert an, was bedeutet, dass zu wenig Beobachtungen (Knoten) vorliegen, um eine fundierte Aussage treffen zu können. Dass das Verhältnis eingehender zu ausgehender Kanten teilweise Werte \(>= 1\) annimmt, zeigt, dass in diesen Monaten die Zahl der eingehenden Kanten die der ausgehenden übertrifft. Im Mittel bleibt das Verhältnis unter 1, es gibt also mehr ausgehende Kanten von Ego zu den Alteri.

Der gesamte Snapshot-Graph \(G\) des Nutzers umfasst alle Interaktionen, die in einem Monat stattfinden. Kanten manifestieren sich von Ego zu Alteri wenn der eine auf einen Kommentar des anderen reagiert. Dabei bestimmen wir sowohl für Ego als auch die Alteri das Topic, wo sie in dem Monat die meisten Interatkionen verzeichnen. Für Ego kennen wir zudem die Top 5 Topics eines Monats. Stellen wir uns das Attribut “Topic” als Farbe des Knotens vor, hat jeder der Alteri eine Färbung, und Ego ist ähnlich einem Tortendiagramm in fünf Farben gegliedert. Dabei ist es keineswegs eine Voraussetzung, dass Ego und Alteri Farben teilen! Kanten können durchaus auch zu anderen Usern bestehen, die einen anderen thematischen Schwerpunkt aufweisen.

Die Knoten, die (mindestens) eine Farbe mit dem zentralen Ego-Knoten gemeinsam haben, formen einen Teilgraph \(G'\), den wir als “thematisch ähnlich” bezeichnen. Wir stellen den Grad der beiden Graphen \(G\) und \(G'\), sowie deren Größenunterschied \(V(G) - V(G')\) im zeitlichen Verlauf dar.

Der Größenunterschied steigt im Zeitraum tendenziell an, wobei ein “auf und ab”-Muster erkennbar ist; zum Ende des analysierten Zeitraums ist die Tendenz dann wieder eher fallend. Der User interagiert also durchaus vermehrt mit anderen, die sein thematisches Interesse nicht zwingend teilen.


TODO: Für gesamten Zeitraum ebenfalls darstellen


Um einen Grund für das Verlassen des Topics, wie auch offenbar der Plattform generell zu finden, bietet sich eine genauere Untersuchung der sozialen Netzwerkgraphen an.

Für einen Monat im Untersuchungszeitraum kennen wir für Ego die Verteilung der fünf häufigsten Topics. Ebenso wissen wir für jeden der Alteri, in welchem Topic er oder sie am aktivsten waren. Aus diesen Beobachtungen können wir erneut einen Teilgraphen konstruieren, der je Ego-Topic nur diejenigen Alteri enthält, die ebenfalls in diesem Topic aktiv waren. Für diesen Teilgraphen berechnen wir erneut Reziprozitätsmaße.

Im Folgenden betrachten wir einige Maße, die diese Graphen charakterisieren.

Auch in der Verteilung der Kanten und Knoten der Teilgraphen können wir kein unmittelbares Indiz für ein Verlassen des Topics 239 erkennen; in den Monaten unmittelbar vor dem Verlassen weist der Interaktionsgraph von Topic 239 für vergleichsweise wenige Knoten eine hohe Kantenzahl auf. Unter Umständen gibt eine Analyse der Beiträge auf inhaltlicher Ebene Aufschluss über die Qualität der Interaktionen.

Für jeden dieser Teilgraphen können wir wiederum die Reziprozität messen. Wie bereits zuvor wählen wir als Maß den Katz-Powell Index.

Bis auf 235 weisen alle Topics im Oktober 2013 ein Loch auf, was auf einen leeren Graphen zurückzuführen ist. Im Fall von Topic 235 enthält der Graph zwar Kanten, jedoch zu wenig, um ein sinnvolles Indexmaß berechnen zu können.

Offensichtlich stoßen wir bei dieser Untersuchung an die Grenzen der Computational Social Science. Wir können nur diejenigen Effekte versuchen zu erklären, die wir anhand der vorliegenden Daten beobachten können. Es ist durchaus denkbar, dass eine reduzierte Aktivität nicht anhand intrinsicher Messungen erklärt werden kann, sondern dass externe Faktoren dafür verantwortlich sind. Ein geeignetes Mittel, um diese Beobachtungen verstehen zu können, wäre etwa der in den Sozialwissenschaften häufig gebrauchte Fragebogen, oder das Interview.